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三 维 重建 系统 下 的 特征 点 处 理 与 位 姿 恢 复 优 化 算法 


徐 建 月， 上 下凡 亮 - 


(中 国人 民 公安 大 学 信息 技术 与 网 络 安全 学 院 ,北京 102628) 


摘 要 : 如 何 提高 特征 点 检测 与 匹配 结果 的 精度 ， 更 好 地 优化 相机 位 姿 恢 复 结果 ， 是 提高 三 维 重 建 整 体 效 率 的 关键 因 

素 之 一 。 基 于 SIFT 算法 原理 ， 构 建 了 一 个 全 新 的 算法 框架 ， 该 算法 使 用 FCN (fully convolutionalnetworks， 全 卷 积 神 

经 网 络 ) 神经 网 络 和 BP (backpropagation， 反 向 传播 ) 神经 网 络 ， 综 合 考虑 图 像 主 目标 的 语义 分 割 、 图 像 灰 度 共 生生 

阵 等 方面 的 影响 ， 实 现 了 自 适 应 的 特征 点 检测 范围 、 数 量 调整 ， 并 在 特征 点 匹配 阶段 利用 相机 位 姿 偏 移 稳定 性 吻 除 误 

匹配 ， a ee Anan si dl 得 到 了 更 加 精确 相机 位 姿 。 最 后 与 现 有 的 主流 算 
分析 比 对 ， 实 验 结 果 验 证 了 该 算法 的 有 效 性 ， 提 高 了 特征 点 检测 的 场景 自 适 应 程度 与 特征 点 匹配 、 位 姿 恢 复 的 

精度 ， 实 现 了 更 加 高 效 的 三 维 重建 。 
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Feature point processing and position recovery optimization algorithm in 3D reconstruction 
system 


Xu Jianpeng, Bu Fanliang' 
(School of Information Technology & Cyber Security, People's Public Security University of China, Beijing 102628, China) 


Abstract: How to improve the accuracy of feature point detection and matching results and to optimize the recovery results of 
camera pose is one of the key factors of the overall efficiency improvement of 3D reconstruction. In this paper, on the basis of 
the principle of SIFT algorithm, we constructed a completely new algorithm framework. The algorithm used FCN (Fully 
Convolutional Networks) neural network and BP (Back Propagation) neural network to comprehensively consider the semantic 
segmentation and image gray level co-occurrence matrix of the main target of image to achieve adaptive feature point detection 
range and quantity adjustment, and it used the offset stability of camera position to eliminate false matching during feature point 
matching. In the meantime, it optimized the pose recovery results by using graph-based optimization nonlinearity and obtained 
a more accurate camera pose. Finally, we compared it with the existing mainstream algorithms, and the experimental results 
verified the effectiveness of the proposed algorithm, the improvement of the scene-adaptive degree of feature points detection, 
the matching precision of feature points, the precision of posture recovery, and the better efficiency of three-dimensional 
reconstruction. 
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定性 影响 。 因 此 ， 如 何 提高 特征 点 检测 、 匹 配 及 相机 位 姿 的 精 

度 ， 是 实现 更 加 高 效 三 维 重建 的 关键 所 在 。 首 先 ， 在 现 有 的 了 

在 三 维 重建 的 整个 过 程 中 ， 特 征 点 的 检测 与 匹配 是 最 为 基 流 特 征 点 检测 算法 中 ， 如 SIFT、SURF、ORB 等 031， 其 检测 范 
多 


WT 


础 的 部 分 ,其 结果 将 作为 对 极 几何 ` 三 角 化 等 步骤 的 输入 数据 ， 胃 履 盖 整 幅 图 像 ， 而 三 维 重建 只 关注 于 图 像 中 的 主要 目标 ， 如 
以 获得 相机 的 位 姿 及 空间 点 云 的 三 维 坐 标 ， 其 中 相机 位 姿 是 重 。 建筑 、 特 定 物体 等 ， 尤 其 是 当主 要 目标 之 外 的 边缘 点 过 多 或 存 
建 过 程 中 的 核心 数据 之 一 ， 其 一 方面 反映 了 特征 点 处 理 阶 段 的 ”在 相似 像素 块 时 , 易 产 生 误 匹配 和 内。 其次, 现 有 主流 算法 无 法 根 
结果 ， 男 一 方面 在 后 续 的 稠密 点 云 恢复 、 纹 理 贴图 等 步骤 中 都 。 据 应 用 的 需求 来 对 特征 点 的 数量 进行 控制 ， 过 多 的 特征 点 会 导 
将 作为 重要 的 数据 输入 源 ， 直 接 对 最 终 的 三 维 重建 效果 产生 决 致 大 量 的 误 匹 配 ， 影 响 位 姿 恢 复 的 精度 ， 而 过 少 的 特征 点 将 无 
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法 满足 三 维 重建 的 数据 量 需求 。 最 后 , 基于 K 最 近邻 (K-nearest 
neighbor, KNN) 加、RANSAC (random sample consensus， 随 
机 抽样 一 致 ) 中 等 主流 算法 的 特征 点 匹配 优化 方法 ， 其 过 程 依 
赖 于 现 有 的 匹配 数据 ， 即 容易 受 误 匹 配 的 累积 误差 影响 ， 优 化 
结果 不 稳定 ， 且 其 精度 将 直接 影响 到 位 姿 的 恢复 。 
人 工 神经 网 络 在 计算 机 视觉 领域 的 快速 发 展 为 三 维 重建 算 
法 研究 提供 了 一 种 新 的 途径， Hou 等 中 利用 caffe 框架 下 的 
Alex Net 模型 进行 特征 提取 ， 特 征 描述 鲁 棒 性 能 优 于 传统 特征 ， 
目 特征 提取 更 加 迅速 ，Mc Cormac 等 提出 基于 卷 积 神经 网 络 
的 稠密 3 维 语义 地 图 构建 方法 Semantic Fusion, 利用 卷 积 神经 
网 络 预测 像素 级 的 物体 类 别 标签 ， 最 终生 成 包含 语义 信息 的 笛 
语义 地 图 ; 文献 [9] 通 过 卷 积 神经 网 络 对 图 像 进行 自动 分 
割 ， 较 好 地 解决 三 维 重建 中 目标 分 割 任务 繁重 的 问题 。 另 一 方 
， 针 对 上 述 所 分 析 的 现存 问题 ， 文 献 [10,11] 通 过 实际 特征 点 
如 像 对 比 度 等 因素 来 对 相关 的 系数 进行 调整 ， 实 现 特征 点 
量 控制 ， 取 得 了 较 好 的 效果 ， 但 由 于 考虑 的 因素 较为 单一 ， 
算法 的 自 适 应 程度 仍 有 待 提高 ;文献 [12] 通 过 改进 的 BRIEF 算 
子 和 对 极 几 何 原理 来 对 特征 点 匹配 进行 优化 , 提高 了 匹配 精度 ， 
但 仍 受制 于 误 匹 配 的 影响 ， 算 法 结果 的 稳定 性 不 足 。 主 流 的 位 
姿 优化 方法 首先 需要 恢复 出 三 维 点 云 ， 再 利用 重 投影 误差 来 进 
行 非 线性 优化 ,但 点 云 恢复 过 程 中 累积 了 位 姿 恢 复 阶段 的 误差 ， 
精度 不 足 。 
针对 上 述 问题 ， 本 文 基 于 SIFT 算法 原理 提出 了 一 个 全 新 
的 算法 框架 。 首 先 ， 本 文通 过 构造 符合 三 维 重建 需求 的 训练 自 
数据 , 对 FCN 神经 网 络 0 进行 训练 , 使 其 能 够 对 图 像 中 的 主要 
目标 进行 检测 ， 从 而 实现 特征 点 检测 范围 的 调整 ， 同 时 对 图 像 
灰 度 共生 矩阵 进行 分 析 ， 结 合 SIFT 算法 中 的 对 比 度 阔 值 来 构 
造 BP 神经 网 络 的 训练 集 数据 ， 以 拟 合 特征 点 数量 、 图 像 灰 度 
生 算 阵 [及 对 比 度 闵 值 之 间 的 非 线性 关系 ， 实 现 图 像 特征 点 
数量 的 控制 ， 其 次 ， 通 过 分 析 三 角 测量 原理 ， 利 用 其 位 姿 偏 移 
稳定 性 来 对 特征 点 匹配 结果 进行 优化 ， 即 控制 匹配 特征 点 在 图 
像 中 的 像素 位 置 范围 ， 从 而 避免 误 匹 配 在 优化 过 程 中 所 产生 的 
累积 误差 ， 实 现 精确 匹配 ， 最 后 利用 图 优化 吕方 法 ， 构 造 匹 配 
特征 点 像素 位 置 及 相机 位 姿 之 间 的 最 小 二 乘 问题 ， 来 对 位 姿 进 
行 非 线性 优化 ， 充 分 发 挥 了 本 文 特征 点 匹配 优化 算法 的 精度 优 
势 。 与 SIFT 算法 进行 分 析 比 对 后 , 实验 结果 验证 了 本 文 算法 的 
有 效 性 与 高 效 性 。 
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1 ”相关 理论 
1.1 神经 网 络 


BP 神经 网 络 是 一 种 根据 误差 反 向 传播 算法 训练 的 多 层 前 
向 神经 网 络 ， 通 过 计算 期 望 输出 与 实际 输出 之 间 的 误差 ， 由 输 
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1 BP 神经 网 络 与 FCN 神经 网 络 结构 


如 何 恢复 相机 的 空间 运动 是 对 极 几何 所 解决 的 关键 问题 。 
如 图 2 所 示 , 对 于 三 维 空间 中 的 一 点 P, 相机 ( 光 心 位 置 ) 0 ， 


0, 分 别 得 到 图 像 ， 
Pp，， 光 心 连 线 0.0, 称 为 基线 ， 


Pi， 


1, ，P 在 两 幅 图 像 中 的 像素 分 别 表示 为 


其 与 像素 平 对 


1 所 产生 的 交 


点 @，@ 称 为 极点 ，pP1，P; 与 6@，% 的 连 线 1 ，4 称 为 极 线 ， 


有 0, 的 位 


段 ， 本 文 已 经 获得 了 若干 对 相互 匹配 的 特征 点 


-十 


的 记 和 产 ， 知 


匹配 关系 未 知 ， 那 么 pi 所 对 应 的 匹配 点 可 能 在 


是 由 0 经 过 空间 变换 R ,t 得 到 。 在 特征 点 匹配 阶 


， 即 点 P 所 产生 


4 的 任何 位 置 , 如 p;, 由 此 所 对 应 的 空间 坐标 点 则 为 P'。 因 此 ， 


正确 的 特征 点 匹配 是 决定 三 维 习 


和 ps 
Pi 了 
的 
1 
一 -一 
Rt 
图 2 对 极 几 何 原理 图 


2 ”算法 框架 


根据 以 上 分 析 ， 本 文 算法 框架 主要 特 生 
配 及 位 姿 优化 三 个 部 分 组 成 ， 


体 如 图 
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图 3 本 文 算法 框架 


E 建 结果 的 最 为 重要 的 因素 。 


E 点 检测 、 特 征 点 匹 
3 所 示 。 


在 特征 点 检测 阶段 ， 该 算法 对 输入 的 每 幅 


出 向 输入 逐 层 调整 节点 的 参数 与 闪 值 ， 经 过 反复 和 迭代， 最终 实 
现 目标 精度 。FCN 神经 网 络 主要 用 于 图 像 语 义 分 割 ， 该 网 络 相 
较 于 卷 积 神经 网 络 , 区 别 主 要 在 于 FCN 的 最 后 一 层 仍 然 为 卷 积 
层 ， 用 于 上 采样 还 原 出 像素 的 分 类 及 位 置信 息 。 


度 与 灰 度 共生 矩阵 ， 据 此 分 析 图 像 的 复杂 度 ， 并 明确 应 | 


图 像 计算 其 对 比 
j 所 需 


的 特征 点 数量 ， 然 后 输入 到 基于 BP 神经 网 络 的 自 适 应 控制 模 


块 中 ， 由 此 调整 对 比 度 阔 值 ， 


控制 图 像 的 整体 特征 点 数量 ， 若 


第 一 次 调整 后 特征 点 数量 仍 不 符合 要 求 ， 将 进行 迭代 调整 ， 最 
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终 使 其 符合 需求 。 与 此 同时 , 图 像 还 将 经 过 训练 好 的 FCN 神经 
网 络 的 处 理 ， 得 到 主 目标 像素 范围 ， 并 以 此 来 对 特征 点 检测 的 
区 域 进行 限制 ， 避 免 背 景 噪声 信息 所 带 来 的 累积 误差 。 

在 特征 点 匹配 阶段 ， 需 要 对 三 维 重建 中 的 相机 位 姿 偏 移 稳 
定性 进行 分 析 。 在 相机 移动 的 过 程 中 ， 每 次 拍摄 之 间 的 位 移 不 
应 过 小 ， 但 同时 要 考虑 到 过 大 的 位 移 会 导致 特征 的 消失 或 者 场 
景 外 观 的 变化 ， 具 体 如 图 4 所 示 ， 其 中 Ae 表示 在 相同 的 匹配 
误差 下 ( A0 )， 不 同 的 相机 位 移 ( ，t)〉 所 恢复 的 点 云 结 果 
( P' ) 与 真实 结果 (P ) 之 间 的 误差 ，O, ，@ 代表 相机 的 光 
心 位 置 。 因 此 对 于 图 像 序列 中 相 邻 的 两 幅 图 像 ， 其 对 应 的 匹配 
特征 点 的 像素 位 置 不 应 有 过 大 的 变化 ， 由 此 性 质 ， 本 文 即 可 对 
匹配 结果 进行 优化 ， 剔 除 大 量 的 误 匹 配 ， 提 高 重建 精度 。 


Ae > Ae, ， 


出 


图 4 三 维 重 建 中 相机 位 姿 偏 移 稳定 性 原理 

在 相机 位 姿 恢复 阶段 ， 至 少 需要 五 对 匹配 点 即 可 恢复 出 相 
机 的 位 姿 R 、t， 因 此 对 于 所 有 经 过 优化 的 匹配 结果 (通常 都 
远大 于 5) ， 本 文 算法 从 概率 论 的 角度 进行 分 析 ， 以 图 优化 为 
求解 工具 ， 构 造 特征 点 像素 坐标 及 相机 位 姿 之 间 的 最 小 二 乘 问 
题 ， 即 第 一 幅 图 像 中 的 特征 点 ， 经 过 什么 样 位 移 变换 ， 才 最 可 
能 得 到 现 有 第 二 幅 图 像 中 匹配 特征 点 的 像素 位 置 ， 由 此 来 对 相 
机 位 姿 进 行 非 线 性 优化 ， 得 到 更 符合 实际 的 结果 。 


3 ”算法 实现 


3.1 BP 神经 网 络 的 构造 与 训练 

对 比 度 阔 值 是 SIFT 算法 中 用 于 提高 特征 点 稳定 性 的 关键 
参数 之 一 ， 且 不 同 的 图 像 对 比 度 会 对 特征 点 数量 产生 很 大 的 影 
响 。 当 本 文 需要 定量 地 分 析 图 像 对 比 度 时 ， 本 文 一 般 采 用 均 方 
根来 进行 计算 ， 有 具体 如 式 1 所 示 ， 其 中 1 表示 像素 数量 ，% 表 
示 第 i 个 像素 的 灰 度 值 ，x 表示 图 像 像素 灰 度 值 的 平均 数 只。 


RMS -| 二 2 El (1) 
n-l 

对 比 度 只 是 图 像 整 体 信息 的 一 个 方面 ， 在 相同 对 比 度 的 图 
像 下 ， 复 杂 度 也 会 极 大 地 影响 特征 点 数量 。 图 像 复杂 度 是 对 图 
像 固有 复杂 性 的 描述 和 所 有 图 像 信息 的 聚集 。 为 了 获取 定量 的 
图 像 复 杂 度 ， 本 文通 常 使 用 灰 度 共生 矩阵 来 分 析 图 像 的 信息 简 
(information entropy H) 、 相 关 度 〈correlation degree, COV ) 
和 能 量 (energy, J) 等 重要 信息 ， 具 体 如 式 2 所 示 ， 其 中 k 表示 
图 像 所 具有 的 灰 度 级 的 数量 ，n 指 第 1 个 灰 度 级 的 总 数量 ，N 


sp 


代表 图 像 的 总 像素 数 ，p(i,j) 表示 灰 度 共生 和 矩阵 中 第 (i, 四) 个 值 ， 


同 时 =D Dx p(x,y) ， 1, = YD yp(x,y) ; 


x=] y=l1 X=1 y=1 
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模 


度 阔 值 之 间 的 数学 模型 ， 以 实现 特征 点 数量 的 自 适 应 控制 。 首 
先 定义 如 式 3 所 示 的 函数 关系 ， 该 式 可 解释 为 ， 对 于 给 定 范围 
的 特征 点 数量 ， 模 型 自动 匹配 适当 的 对 比 度 冰 值 ， 以 使 实际 特 
征 点 数量 与 需求 的 相符 。 

contrast threshold = f (complexity, RMS, point range) (3) 
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过 以 上 分 析 ， 最 终 将 信息 焙 、 相 关 度 、 能 量 及 边缘 比例 
四 个 指标 综合 表示 一 幅 图 像 的 复杂 度 。 求 得 图 像 复杂 度 的 计算 
型 之 后 ， 本 文 需要 构建 特征 点 数 、 图 像 复杂 度 、 图 像 及 对 比 


La 7 n 
百 EES oli 
ZN 2 的 
NWN 
COV= br j)- pn | /aa O) 


i=1 j=1 


JS 


i=1 j=1 


本 文采 用 BP 神经 网 络 来 拟 合式 3 的 非 线性 数学 关系 ， 从 


国 慕 尼 黑 工业 大 学 (Technische Universitit Miinchen ) 数 据 集中 
选取 了 3000 张 图 像 , 对 于 每 一 张 图 像 , 构造 了 如 表 1 所 示 的 
三 组 数据 , 由 此 共 形 成 了 包含 9000 组 数据 的 训练 集 , 其 中 的 对 
比 度 阔 值 均 通过 反复 的 线性 迭代 来 获得 。 


表 1 BP 神经 网 络 训 练 集 构造 


图 像 序号 


数据 集 复杂 度 对 比 度 特征 点 数量 对 比 度 阔 值 
1 0.4665 3.6986 900 0.08 
2 0.4665 3.6986 800 0.12 
3 0.4665 3.6986 700 0.13 


数量 作为 BP 神经 网 络 的 输入 ， 对 比 度 闵 值 则 作为 输出 。 需 要 
调 的 是 ， 选 择 BP 神经 网 络 的 原因 主要 在 于 ， 相 较 于 LMS 


强 


根据 表 1, 将 复杂 度 (三 个 指标 )、 对 比 度 及 需求 的 特征 点 


(least mean square ) 和 LM (Levenberg-Marquardt) 等 单 层 网 
络 ，BP 神经 网 络 属于 多 层 网 络 且 有 具备 更 好 的 非 线性 拟 合 能 


本 


文 使 


Matlab 工具 构造 出 如 图 5 所 示 的 BP 神经 网 络 来 拟 合 


式 3 的 数学 模型 ， 该 神经 网 络 的 的 隐 含 层 共 设置 了 9 个 节点 ， 
以 提高 泛 化 能 力 ， 输 出 设置 9 个 节点 ， 采 用 二 进 制 (0,1) 来 表 
示 对 比 度 阔 值 ， 为 确保 神经 网 络 的 准确 性 ， 本 文 将 训练 误差 精 
度 设置 为 0.251, 同时 对 所 有 的 输入 进行 了 归 一 化 处 理 , 以 消除 


量 纲 效应 , 经 过 如 图 


CN 


所 示 的 7424 次 欠 代 后 , 神经 网 络 达到 目 


标 精度 ， 
自 适应 模块 ， 根 据 图 像 的 信息 及 应 用 需求 ， 来 自 适 应 地 调整 对 
比 度 闵 值 ， 使 最 终 检测 结果 符合 预期 。 


Input 


训练 完成 。 最 后 ， 该 神经 网 络 将 作为 新 SIFT 框架 中 的 


Hidden Layer Output Layer 


Output 


9 9 


图 5 本 文 设计 的 BP 神经 网 络 结构 
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Best Validation Performance is 0.25112 at epoch 7424 


Train 
-一 一 validation 
Test 
Best 
Goal 


Mean Squared Error (mse) 


0 1000 2000 30 4000 5000 6000 7000 
7424 Epochs 


图 6 BP 神经 网 络 训 练 过 程 


3.2 FCN 神经 网 络 的 构造 与 训练 


要 检 


光合 作 期 刊 


Chi 
从 建 胸 ， 等 : 三 维 重 建 系统 下 的 将 入 愉 呈 下 总 人 于 居 复 估 他 虹 法 


3.4 基于 图 优化 的 相机 位 瓷 恢复 
根据 1.3 中 的 原理 ， 本 文 可 以 根据 相机 位 姿 优 化 问题 设计 
如 图 8 所 示 的 图 结构 。 


ee (x'y)=flx,y,Rt) 
二 
| 一 全 
9 R,t 


图 8 图 优化 结构 

以 上 一 个 相机 位 姿 为 参考 系 ， 则 当前 相机 位 姿 即 可 表示 为 
(R，t) ， 即 为 图 结构 中 的 顶点 (优化 变量 ) ， 图 中 的 边 (误差 
) 表示 第 一 幅 中 的 特征 点 ， 经 过 (R，t) 旋转 变换 后 ， 在 第 二 


冯 


测 出 图 像 中 主 目标 的 像素 范围 ， 传 统 的 方法 一 般 采 用 


图 像 中 的 像素 位 置 ， 该 像素 位 置 也 将 作为 误差 项 ， 与 本 文 已 


基于 Canny、Sobel 等 算 子 的 边缘 检测 算法 对 图 像 进行 处 理 , 但 


于 图 像 


中 还 存在 大 量 的 背景 图 案 ， 会 产生 大 量 的 边缘 信息 ， 


导致 无 法 


神经 网 络 ， 


正确 地 计算 出 主 目标 的 像素 范围 ,因此 本 文采 取 FCN 
进行 像素 级 的 分 类 ， 有 效 地 提取 出 了 场景 中 的 主 目 


标 像 素 范 


拓 ， 提 高 了 特征 点 检测 的 效率 及 匹配 精度 ， 具 体 网 络 


结构 如 图 


Image C' 


7 所 示 。 


onv1 Pooll Cowm2 Pool Cowm3 PooB Covwn4 Pool4 Covwn5s Pools 


有 时 时 提 


县 国 
| 


该 网 
其 


一 呈 (Cs 


De-Conv Classify Densel-3 


图 7 ”本文 设计 的 FCN 神经 网 络 结构 
络 共 包含 五 个 卷 积 层 (Conv1l 与 Conv2 进行 了 两 次 卷 


积 ， 


个 全 连接 


层 的 输出 
所 丢失 的 


余 进行 了 三 次 卷 积 ) 、 五 个 池 化 层 (pool) 、 三 了 
层 (dense) 和 三 个 上 采样 层 (de-conv) ， 并 将 第 二 、 第 三 池 化 


AR 
像素 位 置信 息 ， 提 高 分 割 的 精度 。 本 文通 过 Caffe 深 


度 学 习 框架 来 措 建 图 7 中 所 设计 的 网 络 ， 并 使 用 PASCAL 
VOC2012 数据 集 作为 该 网 络 的 训练 集 ， 最 络 将 训练 好 的 FCN 


网 络 应 上 


汇 出 


] 于 本 文 的 算法 框架 中 ， 用 于 提取 图 像 中 的 主 目标 像素 


3.3 ”基于 位 瓷 偏 移 稳定 性 的 特征 点 匹配 优化 


根据 
有 nn 对 了 匹 


上 文 对 三 维 重 建 中 相机 位 姿 偏 移 稳 定性 的 分 析 ， 设 共 
配点 ， 在 传统 的 KNN 算法 优化 的 基础 上 ， 对 同时 满 


足 式 4 的 匹配 点 进行 保留 ， 即 第 二 幅 图 像 上 对 应 的 匹配 点 的 


位 置 ， 应 


与 第 一 幅 图 像 上 匹配 点 位 置 保持 一 定 范围 内 的 约束 ， 


其 中 7h, 表示 约束 的 范围 ， 主 要 根据 图 像 的 像素 大 小 来 进行 设 


置 ， 一 般 


确 匹 配点 ， 


得 到 的 真实 像素 位 置 ( 即 对 应 的 一 对 匹配 点 中 ， 第 三 幅 图 像 中 
的 点 的 像素 位 置 ) 之 间 进 行 误差 计算 ， 由 此 本 文 即 构建 了 一 个 
以 相机 位 姿 为 优化 变量 的 最 小 二 乘 问题 ， 最 后 可 由 基于 图 优化 
的 第 三 方 库 g2o(General Graphic Optimization) 来 具体 实现 与 解 
决 ， 具 体 分 析 如 下 。 

首先 构造 式 5 所 示 的 观测 方程 ， 表 示 在 R,t 相机 位 姿 下 观 
测 其 中 »，, 为 符合 高 斯 分 布 的 噪声 , 六 ~ N(0,Q,) : 


(37)=f (637), (RD)) +Y, (5) 


设 状态 变量 ws=tRD() (co 外 


m={(6, 放 ),…,(,y)}， 将 原 问 题 转换 为 构建 最 大 化 条 件 概 率 


问题 ， 如 式 6 所 示 ， 即 在 已 知 第 一 幅 图 像 及 对 应 的 第 二 幅 图 像 

的 匹配 点 位 置 时 ， 最 可 能 的 相机 位 姿 是 多 少 : 

P(m|w)P(w) 
P(m) 

即 求 式 6 的 最 大 化 ， 其 最 大 似 然 估计 为 


P(w|m)= x P(m|w)P(w) (6) 


， 
Wiare 二 


argmin((m, 一 Co) (RD Om, -AGROD) 


(7) 
设 误 差 项 为 
6 = (567) -fF((%,7,),(R,t)) (8) 
由 此 可 将 式 (6) 转换 为 式 (9) 的 形式 : 
minE(n)= > ¢e,Qve, (9) 


在 计算 最 小 化 E(n) 的 过 程 中 ， 若 E(n)>7h ， 则 直接 将 其 


取 图 像 对 角 线 像素 长 度 的 10%。 由 此 本 文 可 以 求 得 精 
根据 对 极 几 何 原理 解 出 初始 的 R、t 


= 并 (CD 让 
(二 2) +(y—y) <Th (4) 
Th = Vmage cor 十 Image_row ) :0.1 


对 应 的 匹配 点 对 删除 ， 一 方面 剔除 了 错误 匹配 ， 另 一 方面 也 减 
少 了 在 求解 R、t 过 程 中 所 产生 的 累积 误差 , 得 到 更 加 精确 的 结 


四 
A 修 。 


4 ”实验 与 分 析 


实验 硬件 环境 : Intel Corei7-6700HQ 四 核 处 理 器 ，8GB 内 
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RM 合作 其 | 


Chin 
到 高 徐 等 : 三 维 重建 系统 下 的 特征 点 处 理 化 算 ; 


存 ，Linux Ubuntu14.04 操作 系统 ，80GB 硬盘 空间 


软件 环境 : VMware Workstation Pro，C++ 语 言 ，g++ 编 译 


un 


mt 


数据 集 : TUM 三 维 重建 数据 
4.1 特征 点 检测 
根据 3.1 与 3.2 节 中 的 分 析 ， 实 验 结果 如 图 9 所 示 。 


图 9 特征 点 检测 实验 结果 


图 像 大 小 均 为 255*255。 


徐 建 胸 ， 等 


右 图 所 示 。 相 较 于 SIFT 算法 , 本 文 算法 在 特征 点 检测 阶段 的 耗 


时 比较 如 表 2 所 示 。 
表 2 SIFT 与 本 文 算法 在 特征 点 检测 阶段 的 耗 时 比较 结果 
实验 序号 3 4 5 
SIFT 算法 耗 时 1.78 0.74 1.65 2.46 
本 文 算法 耗 本 1.01 1.05 1.79 2.68 


在 图 9(a) 中 ，SIFT 算法 共 检 测 到 4 865 个 特征 点 ， 经 过 本 
文 算法 调整 后 共 检 测 到 1 084 个 特征 点 ， 而 对 于 图 9(b) 中 特征 
点 过 少 的 情况 ， 本 文 算法 将 特征 点 数量 由 231 调整 到 973。 图 
9(c)~(e) 左 边 的 图 像 表 示 未 经 特征 点 检测 范围 控制 的 结果 , 在 主 
目标 外 有 大 量 的 背景 特征 点 , 中 间 的 图 像 表示 FCN 神经 网 络 处 
理 后 的 结果 ， 提 取出 了 主 目 标的 范围 ， 由 此 来 对 特征 点 进行 范 


所 控制 ， 得 到 了 集中 于 主 目 标 上 的 特征 点 检测 结果 ， 如 图 9(c) 


由 以 上 实验 法 能 够 有 效 地 对 特征 点 数量 


仿 测 范围 的 控制 , 其 耗 时 较 SIFT 算法 提 


进行 调整 ,并 实现 


局 了 1.7%， 其 


要 原因 在 于 本 文 算法 在 FCN 检测 阶段 耗费 了 


更 多 的 时 间 ， 但 
SIFT 算法 持平 。 
4.2 ”特征 点 匹配 

根据 3.3 节 趾 


于 缩小 了 检测 范围 


忆 此 总 体 上 的 耗 时 仍 与 


如 图 10 所 示 。 


10(a) 为 未 经 任何 优化 的 特征 
的 误 匹 配 ， 图 10(b) 表 示 经 过 
配 得 到 了 一 定 的 优化 ， 但 | 
明显 的 误 匹 配 ， 经 过 基 了 


匹配 实验 结果 图 


点 匹配 结果 , 图 中 存在 大 量 
传统 的 KNN 算法 优化 的 结果 ， 匹 
于 存在 相似 的 像素 块 ， 导 致 仍 存在 


总 定性 的 优化 算法 处 理 后 ， 
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录用 入 全 二， 二， 过 5TGiDR 全 下 于 
得 到 图 10(c) 所 示 的 结果 ， 再 结合 特征 点 检测 范围 的 限制 ， 即 可 表 4 传统 算法 与 本 文 算法 在 点 云 恢复 阶段 的 耗 时 及 精度 比较 结果 
得 到 图 10(d)， 所 有 匹配 均 为 精确 匹配 ， 类 似 的 处 理 过 程 如 图 ”传统 算法 ” 耗 时 和 轴 误 差 Y 轴 误差 本 文 算法 “ 耗 时 和 轴 误差 Y 轴 误 差 
10(e)(f) 所 示 。 相 较 于 传统 的 基于 KNN 算法 的 匹配 优化 方式 ， 1 0.10 145 4.26 1 0.20 0.15 0.0848 
其 耗 时 比较 如 表 3 所 示 : 2 0.46 0.88 -0.83 2 0.48 0.06 0.14 
表 3 KNN 与 本 文 算法 在 特征 点 匹配 阶段 的 耗 时 比较 结果 3 2.35 2.88 5.95 3 2.92 0.18 0.74 
实验 序号 1 2 3 4 5 4 0.16 0.30 1.75 4 0.18 0.01 0.07 
KNN 算法 耗 时 233 2.69 1.14 2.45 3.02 5 1.13 5.88 9.88 5 1.47 3.67 1.16 
本 文 算法 耗 时 242 275 123 2.61 3.24 由 以 上 实验 结果 可 知 ， 本 文 算法 能 够 有 效 提高 相机 位 姿 的 
以 上 实验 结果 可 知 ， 基 于 位 姿 偏 移 稳定 性 的 特征 点 优化 ”精度 ， 相 较 于 传统 的 优化 算法 ， 其 x 轴 误差 与 y 轴 误 差分 别 降 
算法 能 够 有 效 地 剔除 误 匹 配 ， 提 高 结果 精度 ， 为 相机 位 姿 恢复 。 低 了 65%、91%， 在 耗 时 方面 提高 了 20%， 其 主要 原因 在 于 本 
提供 了 准确 的 原始 数据 ， 其 耗 时 较 KNN 算法 提高 了 5.3%， 其” 文 算法 中 , 根据 式 9, 需要 对 误差 大 于 阔 值 Th 的 匹配 进行 的 易 
主要 原因 在 于 增加 了 特征 点 像素 位 置 计算 等 过 程 ， 但 由 于 所 增 除 ， 增 加 了 计算 量 。 
加 的 为 线性 计算 , 因此 总 体 上 的 耗 时 仍 与 KNN 算法 基本 持平 。 4.4 综合 分 析 
4.3 相机 位 姿 优 化 通过 将 上 述 三 部 分 算法 进行 整合 ， 本 文 对 图 12 两 幅 图 像 
为 根据 3.4 节 中 的 分 析 ， 设 计 如 下 所 示 伪 代码 来 具体 实现 ”进行 了 点 云 恢复 处 理 ， 其 结果 如 图 13 所 示 。 


图 优化 方法 ， 实 验 
输入 : 初始 位 姿 Ri ， 


结果 如 图 11 所 示 。 
特征 点 匹配 


结果 M。 


> 


和 


出 : 优化 后 的 位 姿 Ri 。 
g20( ) 
人 RD Ri 


for(]) 
foriin M: 


兰 


error =error + x,* RI—x, + y,* Rt— y, 


if (error > threshold): 


Delete (x, y,) else continue 


if (error > threshold ) 


Oerror 


ORL 


new 


RI 


new 


=Rt,— 


new 


error=0 and continue 


else break and done 


(a) 


(b) 


(a) 


图 11 


根据 未 经 优化 的 相机 


a) 传统 算法 点 云 恢复 结果 ; 


(b) 
(b)〉 本文 算法 点 云 恢复 结果 


立 姿 所 恢复 的 空间 点 云 如 图 


11(a) 所 


示 ， 经 本 文 算法 优化 后 ， 


其 结果 如 图 11(b) 所 示 ， 点 云 分 布 更 加 


精确 ， 主 目标 的 细 
使 用 重 投 晤 


节 轮 


廓 更 加 明显 。 为 定量 分 析 其 精度 ， 本 文 
乡 误 差 的 方法 来 进行 计算 ， 即 在 现 有 的 相机 


立 姿 视角 


下 ， 观 测 空间 点 云 ， 计 算 


其 投影 到 像素 坐标 系 下 的 位 置 ， 再 将 


此 位 置 与 实际 对 应 的 特征 


点 像素 坐标 进行 比较 ， 分 别 统计 其 在 


x 轴 、y 轴 的 误差 (以 像素 位 单位 计算 〉， 


不 。 


最 终结 果 如 表 4 所 


(C) 


er A 人 
综合 


图 13 


(d) 


分 析 实 验 结果 ，(a)(b) 为 俯视 ，(c)(d) 为 侧 视 
图 13(a)(c) 表 示 经 传统 主流 算法 (SIFT 特 行 
特征 点 匹配 优化 、 基 于 重 投 影 误 差 的 位 姿 优 化 ) 处 理 


正点 提取 、 


kt 有 1302 个 点 云 , 但 存在 大 量 的 
为 16.21 个 像素 单位 , y 
5.52s。 本 文 算法 结果 如 图 
大 量 的 错误 点 云 数据 得 
像素 单位 ，y 轴 
可 知 ， 本文 算 法 通过 自 


到 了 吻 除 


工 ve 引 
适应 空 制 | 


轴 误 差 为 35.56 个 像素 


普 误 数据 ,其 重 投影 入 多 


Xx 四 


中 的 主 目标 区 域 提取 了 


后 的 结果 ， 


误差 为 0. 


KNN 


误差 


位， 算法 耗 时 
14(b)(d) 所 示 , 共 得 到 446 个 特征 
从 ,其 重 投影 
误差 为 5.18 个 像素 单位 ， 算 法 耗 时 5.86s。 
I 模块 及 FCN 神经 
合适 数量 的 特征 


左 


16 个 


综 上 


网 络 , 在 图 像 
点 ， 殊 除了 大 量 的 萌 


景 


录用 稿 


特征 点 ， 且 利用 本 文 特征 点 匹配 优化 及 位 姿 优 化 算法 ， 得 到 了 


高 精度 的 空间 点 云 初始 数据 ， 由 此 提高 三 维 重建 结果 的 精度 与 
效率 。 
5 ”结束 语 


重 


Y 姿 恢复 精度 不 足 等 问题 ， 提 
架 ， 并 对 算法 进行 了 实现 。 实 验 结果 验证 了 本 文 算法 的 有 效 
性 ， 


过 


本 文 针 对 目前 特征 点 检测 自 适 应 程度 不 高 ， 特 征 点 匹配 与 


出 了 一 个 基于 SIFT 的 全 新 算法 


实现 了 更 加 高 


Zl 


效 的 特征 点 检测 、 为 三 维 


匹配 及 位 姿 恢 复 ， 


建 过 程 提供 了 高 精度 的 空间 点 云 数 据 ， 提 升 了 整个 三 维 重 建 
程 的 效率 。 


但 另 一 方面 , 本 文 算 法 的 阔 值 Th 应 具备 更 好 自 适 


应 程度 , 需 根据 后 续 所 得 的 相机 位 姿 来 调整 Th 的 取 值 , 实现 二 


次 调整 ， 以 获得 更 多 数量 的 精确 匹配 特征 点 ， 提 高 点 云 恢复 的 


效率 。 
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